香港中文大学推出VideoCanvas:让视频生成如同在画布上自由作画
这项由香港中文大学MMLab实验室的蔡明弘、王秋琳等研究人员联合快手科技Kling团队共同完成的研究发表于2025年10月,论文编号为arXiv:2510.08555v1。感兴趣的读者可以通过该编号查询完整论文。
视频 自由 香港中文大学 vae videocanvas 2025-11-13 06:13 2
这项由香港中文大学MMLab实验室的蔡明弘、王秋琳等研究人员联合快手科技Kling团队共同完成的研究发表于2025年10月,论文编号为arXiv:2510.08555v1。感兴趣的读者可以通过该编号查询完整论文。
视频 自由 香港中文大学 vae videocanvas 2025-11-13 06:13 2
在自动驾驶、机器人导航等领域,3D场景的感知与生成一直是研究热点。然而,传统方法通常将这两个过程分离:生成模型仅仅作为数据增强工具,为下游感知任务提供合成数据。这种方法不仅灵活性有限,生成的场景也往往缺乏对感知任务有价值的细节。
前阵子,谢赛宁团队刚宣告在图像生成领域打拼多年的VAE正式“退役”,不少人还在琢磨这行业要变天,清华大学和快手可灵团队就带着新家伙接了棒。
说白了,SVG 是一套把“语义”和“细节”拆开来处理,然后再把两股信息凑到一块去生成图像的办法。听起来有点像两个人分工合作:一个负责看大方向——这是不是猫、这是不是车,另一个专门盯着毛色、纹理这些细枝末节,最后再把两个人的活儿拼在一起。这个思路带来的直观好处就
如果你也曾厌倦了一遍又一遍地翻阅原始论文,这本专著《The Principles of Diffusion Models》,将成为你系统理解扩散模型的可靠指南与理论起点。
如果你也曾厌倦了一遍又一遍地翻阅原始论文,这本专著《The Principles of Diffusion Models》,将成为你系统理解扩散模型的可靠指南与理论起点。
VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。
长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE + Diffusion」的范式在训练与推理效率上也存在显著瓶颈。
就在今天,纽约大学助理教授谢赛宁团队放出了新作 ——VAE 的替代解决方案 ——RAE(Representation Autoencoders,表征自编码器)。